Most multimodal multi-objective evolutionary algorithms (MMEAs) aim to find all global Pareto optimal sets (PSs) for a multimodal multi-objective optimization problem (MMOP). However, in real-world problems, decision makers (DMs) may be also interested in local PSs. Also, searching for both global and local PSs is more general in view of dealing with MMOPs, which can be seen as a generalized MMOP. In addition, the state-of-the-art MMEAs exhibit poor convergence on high-dimension MMOPs. To address the above two issues, in this study, a novel coevolutionary framework termed CoMMEA for multimodal multi-objective optimization is proposed to better obtain both global and local PSs, and simultaneously, to improve the convergence performance in dealing with high-dimension MMOPs. Specifically, the CoMMEA introduces two archives to the search process, and coevolves them simultaneously through effective knowledge transfer. The convergence archive assists the CoMMEA to quickly approaching the Pareto optimal front (PF). The knowledge of the converged solutions is then transferred to the diversity archive which utilizes the local convergence indicator and the $\epsilon$-dominance-based method to obtain global and local PSs effectively. Experimental results show that CoMMEA is competitive compared to seven state-of-the-art MMEAs on fifty-four complex MMOPs.
translated by 谷歌翻译
尖峰神经网络(SNNS)模仿大脑计算策略,并在时空信息处理中表现出很大的功能。作为人类感知的基本因素,视觉关注是指生物视觉系统中显着区域的动态选择过程。尽管视觉注意力的机制在计算机视觉上取得了巨大成功,但很少会引入SNN中。受到预测注意重新映射的实验观察的启发,我们在这里提出了一种新的时空通道拟合注意力(SCTFA)模块,该模块可以通过使用历史积累的空间通道信息来指导SNN有效地捕获潜在的目标区域。通过在三个事件流数据集(DVS手势,SL-Animals-DVS和MNIST-DVS)上进行系统评估,我们证明了带有SCTFA模块(SCTFA-SNN)的SNN不仅显着超过了基线SNN(BL-SNN)(BL-SNN)(BL-SNN)以及其他两个具有退化注意力模块的SNN模型,但也通过现有最新方法实现了竞争精度。此外,我们的详细分析表明,所提出的SCTFA-SNN模型对噪声和出色的稳定性具有强大的稳健性,同时保持了可接受的复杂性和效率。总体而言,这些发现表明,适当纳入大脑的认知机制可能会提供一种有希望的方法来提高SNN的能力。
translated by 谷歌翻译
截断的线性回归是统计学中的一个经典挑战,其中$ y = w^t x + \ varepsilon $及其相应的功能向量,$ x \ in \ mathbb {r}^k $,仅在当时才观察到标签属于某些子集$ s \ subseteq \ mathbb {r} $;否则,对$(x,y)$的存在被隐藏在观察中。以截断的观察结果的线性回归一直是其一般形式的挑战,因为〜\ citet {tobin1958估计,amemiya1973 reflecression}的早期作品。当误差的分布与已知方差正常时,〜\ citet {daskalakis2019 truncatedRegerse}的最新工作在线性模型$ w $上提供了计算和统计上有效的估计器。在本文中,当噪声方差未知时,我们为截断的线性回归提供了第一个计算和统计上有效的估计器,同时估计了噪声的线性模型和方差。我们的估计器基于对截短样品的负模样中的预测随机梯度下降的有效实施。重要的是,我们表明我们的估计错误是渐近正常的,我们使用它来为我们的估计提供明确的置信区域。
translated by 谷歌翻译
最近,对抗机器学习攻击对实用音频信号分类系统构成了严重的安全威胁,包括语音识别,说话者识别和音乐版权检测。先前的研究主要集中在确保通过在原始信号上产生类似小噪声的扰动来攻击音频信号分类器的有效性。目前尚不清楚攻击者是否能够创建音频信号扰动,除了其攻击效果外,人类还可以很好地看待。这对于音乐信号尤其重要,因为它们经过精心制作,具有可让人的音频特征。在这项工作中,我们将对音乐信号的对抗性攻击作为一种新的感知攻击框架,将人类研究纳入对抗性攻击设计中。具体而言,我们进行了一项人类研究,以量化人类对音乐信号的变化的看法。我们邀请人类参与者根据对原始和扰动的音乐信号对进行评分,并通过回归分析对人类感知过程进行反向工程,以预测给定信号的人类感知的偏差。然后将感知感知的攻击作为优化问题提出,该问题找到了最佳的扰动信号,以最大程度地减少对回归人类感知模型的感知偏差的预测。我们使用感知感知的框架来设计对YouTube版权探测器的现实对抗音乐攻击。实验表明,感知意识攻击会产生对抗性音乐的感知质量明显优于先前的工作。
translated by 谷歌翻译
基于卷积神经网络(CNN)框架对图像支出进行了很好的研究,最近引起了计算机视觉的更多关注。但是,CNN依靠固有的电感偏见来实现有效的样品学习,这可能会降低性能上限。在本文中,以最小的变压器体系结构中的柔性自我发挥机制的启发,我们将广义图像支出问题重新构架为贴片的序列到序列自动估计问题,从而使基于查询的图像映射出现。具体而言,我们提出了一个新型混合视觉转换器基于编码器框架,名为\ textbf {query} \ textbf {o} utpainting \ textbf {trextbf {tr} ansformer(\ textbf {queryotr})围绕给定的图像。 Patch Mode的全球建模能力使我们可以从注意机制的查询角度推断图像。新颖的查询扩展模块(QEM)旨在根据编码器的输出从预测查询中整合信息,因此即使使用相对较小的数据集,也可以加速纯变压器的收敛性。为了进一步提高每个贴片之间的连接性,提议的贴片平滑模块(PSM)重新分配并平均重叠区域,从而提供无缝的预测图像。我们在实验上表明,QueryOtr可以针对最新的图像支出方法平稳和现实地产生吸引力的结果。
translated by 谷歌翻译
由于字体,大小,颜色和方向的各种文本变化,任意形状的场景文本检测是一项具有挑战性的任务。大多数现有基于回归的方法求助于回归文本区域的口罩或轮廓点以建模文本实例。但是,回归完整的口罩需要高训练的复杂性,并且轮廓点不足以捕获高度弯曲的文本的细节。为了解决上述限制,我们提出了一个名为TextDCT的新颖的轻巧锚文本检测框架,该框架采用离散的余弦变换(DCT)将文本掩码编码为紧凑型向量。此外,考虑到金字塔层中训练样本不平衡的数量,我们仅采用单层头来进行自上而下的预测。为了建模单层头部的多尺度文本,我们通过将缩水文本区域视为正样本,并通过融合来介绍一个新颖的积极抽样策略,并通过融合来设计特征意识模块(FAM),以实现空间意识和规模的意识丰富的上下文信息并关注更重要的功能。此外,我们提出了一种分割的非量最大抑制(S-NMS)方法,该方法可以过滤低质量的掩模回归。在四个具有挑战性的数据集上进行了广泛的实验,这表明我们的TextDCT在准确性和效率上都获得了竞争性能。具体而言,TextDCT分别以每秒17.2帧(FPS)和F-measure的F-MEASIE达到85.1,而CTW1500和Total-Text数据集的F-Measure 84.9分别为15.1 fps。
translated by 谷歌翻译
最近的高性能人对象相互作用(HOI)检测技术受到了基于变压器的对象检测器(即DETR)的高度影响。然而,它们中的大多数直接将参数相互作用查询以一阶段的方式通过香草变压器映射到一组HOI预测中。这会使富裕的相互作用结构富含探索。在这项工作中,我们设计了一种新型的变压器风格的HOI检测器,即相互作用建议(STIP)的结构感知变压器,用于HOI检测。这种设计将HOI集预测的过程分解为两个随后的阶段,即首先执行交互建议的生成,然后通过结构感知的变压器将非参数相互作用建议转换为HOI预测。结构感知的变压器通过对互动提案中的整体语义结构以及每个交互建议中人类/对象的局部空间结构进行整体语义结构来升级香草变压器,从而增强HOI预测。在V-Coco和Hico-Det基准测试上进行的广泛实验已经证明了Stip的有效性,并且在与最先进的HOI探测器进行比较时报告了卓越的结果。源代码可在\ url {https://github.com/zyong812/stip}中获得。
translated by 谷歌翻译
运动,作为视频中最明显的现象,涉及随时间的变化,对视频表示学习的发展是独一无二的。在本文中,我们提出了问题:特别是对自我监督视频表示学习的运动有多重要。为此,我们撰写了一个二重奏,用于利用对比学习政权的数据增强和特征学习的动作。具体而言,我们介绍了一种以前的对比学习(MCL)方法,其将这种二重奏视为基础。一方面,MCL大写视频中的每个帧的光流量,以在时间上和空间地样本地样本(即,横跨时间的相关帧斑块的序列)作为数据增强。另一方面,MCL进一步将卷积层的梯度图对准来自空间,时间和时空视角的光流程图,以便在特征学习中地进行地面运动信息。在R(2 + 1)D骨架上进行的广泛实验证明了我们MCL的有效性。在UCF101上,在MCL学习的表示上培训的线性分类器实现了81.91%的前1个精度,表现优于6.78%的训练预测。在动力学-400上,MCL在线方案下实现66.62%的前1个精度。代码可在https://github.com/yihengzhang-cv/mcl-motion-focused-contrastive-learning。
translated by 谷歌翻译
实现通用语言情报是自然语言处理的长期目标,标准评估基准发挥基本和指导作用。我们认为,对于通用语言智能评估,基准本身需要全面和系统。为此,我们提出了Cuge,一种中文语言理解和生成评估基准,具有以下特征:(1)分层基准框架,其中数据集主要选择和组织语言能力 - 任务数据集层次结构。 (2)多级评分策略,其中基于分层框架提供了不同级别的模型性能。为了促进CUGE,我们提供了一个公共排行榜,可以自定义,以支持灵活的模型判断标准。代表性预先训练的语言模型的评估结果表明了对通用语言智能的完善的充足空间。 Cuge在Cuge.baai.ac.cn上公开提供。
translated by 谷歌翻译
与传统机器学习(ML)相比,联邦学习(FL)被认为是解决移动设备的数据隐私问题的吸引力框架。使用Edge Server(ESS)作为中间人在接近度执行模型聚合可以减少传输开销,并且它能够在低延迟FL中实现很大的潜力,其中FL(HFL)的分层体系结构被吸引更多地关注。设计适当的客户选择策略可以显着提高培训性能,并且已广泛用于FL研究。然而,据我们所知,没有专注于HFL的研究。此外,HFL的客户选择面临的挑战比传统的FL更多,例如,客户端 - es对的时变连接和网络运营商的有限预算(否)。在本文中,我们调查了HFL的客户选择问题,其中no no学习成功参与客户的数量以改善培训性能(即,在每轮中选择多个客户端)以及每个ES的有限预算。基于上下文组合多武装强盗(CC-MAB)开发了一个称为上下文知识的在线客户选择(COCS)的在线策略。 COCs观察局部计算和客户端对传输的侧信息(上下文),并使客户选择决策最大化没有给出有限预算的实用程序。理论上,与强凸和非凸HFL上的Oracle策略相比,COCS遗憾地实现了载体遗憾。仿真结果还支持拟议的COCS政策对现实世界数据集的效率。
translated by 谷歌翻译